iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 29
0
自我挑戰組

30天深入探索Python系列 第 29

第二十九天-網頁爬蟲

  • 分享至 

  • xImage
  •  

網頁爬蟲就是透過寫程式與網站溝通,以取得自己需要的程式,我們平常都是透過瀏覽器和網站做溝通,一般是從網址輸出後,伺服器收到並回傳原始碼經由網站轉為我們能夠閱讀的模式。瀏覽器會把網站回傳的資訊呈現給使用者,你可能會覺得沒必要多此一舉,但如果你常常需要取得網站最新消息,或針對不同網站做資訊比對,或是要從網站複製貼上大量資料,網頁爬蟲可能就可以更好的達成你的需求。

爬蟲就是爬蟲,他雖然小卻能看到我們平時所看不到的,我們可以在網頁中按 **F12 ** 就能看到類似爬蟲的視角。現在開始介紹怎麼使用 python 寫出網路爬蟲的程式。

先用系統管理員打開命令提示字元 (cmd)
https://ithelp.ithome.com.tw/upload/images/20181024/201120331659IrwKT6.png
接著輸入 pip 查看你的 python 安裝了哪些套件
https://ithelp.ithome.com.tw/upload/images/20181024/20112033gbH4UK7RWl.png
這裡需要安裝 requests、BeautifulSoup4 套件
https://ithelp.ithome.com.tw/upload/images/20181024/20112033tdKabBSUHn.png
https://ithelp.ithome.com.tw/upload/images/20181024/20112033KtCSCsBKiZ.png
要怎麼知道你下載安裝套件有沒有成功
https://ithelp.ithome.com.tw/upload/images/20181024/2011203390FXcWe3bR.png
輸入完成沒跳出錯誤訊息就是成功了

準備好了就開始用 python 來抓取網頁內容吧,這邊我是用維基百科做測試
先 F12 進入開發人員工具後點 Network 並重新整理後你會看到一串資料,我們找到最頂端的資料並點擊去取得 url。
https://ithelp.ithome.com.tw/upload/images/20181024/20112033N2p1rlqGP2.png
並進入 IDLE 輸入這段程式碼,將 url 貼上
https://ithelp.ithome.com.tw/upload/images/20181024/20112033dIm9VY1KKi.png
你可以看到整個網頁的程式碼了
https://ithelp.ithome.com.tw/upload/images/20181024/20112033iplm5Q7lnQ.png


上一篇
第二十八天-猜數字遊戲
下一篇
第三十天-再見
系列文
30天深入探索Python30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言